scrapy -- CrawlSpider类
全部标签 我正在使用Scrapy抓取网页。我需要的一些信息只有在你点击某个按钮时才会弹出(当然点击后HTML代码中也会出现)。我发现Scrapy可以处理表单(如登录),如图here.但问题是没有表格可以填写,所以这不是我需要的。我怎样才能简单地点击一个按钮,然后显示我需要的信息?我必须使用像mechanize或lxml这样的外部库吗? 最佳答案 Scrapy无法解释javascript。如果您绝对必须与页面上的javascript交互,那么您希望使用Selenium。如果使用Scrapy,问题的解决方案取决于按钮在做什么。如果它只是显示之前隐
我正在使用Scrapy抓取网页。我需要的一些信息只有在你点击某个按钮时才会弹出(当然点击后HTML代码中也会出现)。我发现Scrapy可以处理表单(如登录),如图here.但问题是没有表格可以填写,所以这不是我需要的。我怎样才能简单地点击一个按钮,然后显示我需要的信息?我必须使用像mechanize或lxml这样的外部库吗? 最佳答案 Scrapy无法解释javascript。如果您绝对必须与页面上的javascript交互,那么您希望使用Selenium。如果使用Scrapy,问题的解决方案取决于按钮在做什么。如果它只是显示之前隐
我正在使用带有CrawlSpider的scrapy为网站编写爬虫。Scrapy提供了一个内置的重复请求过滤器,它根据url过滤重复请求。另外,我可以使用CrawlSpider的rules成员过滤请求。我想要做的是过滤请求:http:://www.abc.com/p/xyz.html?id=1234&refer=5678如果我已经去过http:://www.abc.com/p/xyz.html?id=1234&refer=4567NOTE:referisaparameterthatdoesn'taffecttheresponseIget,soIdon'tcareifthevalueoft
我正在使用带有CrawlSpider的scrapy为网站编写爬虫。Scrapy提供了一个内置的重复请求过滤器,它根据url过滤重复请求。另外,我可以使用CrawlSpider的rules成员过滤请求。我想要做的是过滤请求:http:://www.abc.com/p/xyz.html?id=1234&refer=5678如果我已经去过http:://www.abc.com/p/xyz.html?id=1234&refer=4567NOTE:referisaparameterthatdoesn'taffecttheresponseIget,soIdon'tcareifthevalueoft
我有item对象,我需要将它传递给许多页面以将数据存储在单个项目中就像我的商品一样classDmozItem(Item):title=Field()description1=Field()description2=Field()description3=Field()现在这三个描述位于三个单独的页面中。我想做类似的事情现在这适用于parseDescription1defpage_parser(self,response):sites=hxs.select('//div[@class="row"]')items=[]request=Request("http://www.example.
我有item对象,我需要将它传递给许多页面以将数据存储在单个项目中就像我的商品一样classDmozItem(Item):title=Field()description1=Field()description2=Field()description3=Field()现在这三个描述位于三个单独的页面中。我想做类似的事情现在这适用于parseDescription1defpage_parser(self,response):sites=hxs.select('//div[@class="row"]')items=[]request=Request("http://www.example.
我有点困惑cookie如何与Scrapy一起工作,以及您如何管理这些cookie。这基本上是我正在尝试做的简化版本:网站的运作方式:当您访问该网站时,您会获得一个sessioncookie。当您进行搜索时,网站会记住您搜索的内容,因此当您执行诸如转到下一页结果之类的操作时,它会知道它正在处理的搜索。我的脚本:我的蜘蛛有一个searchpage_url的起始urlparse()请求搜索页面,并将搜索表单响应传递给search_generator()search_generator()然后yield使用FormRequest的大量搜索请求和搜索表单响应。这些FormRequest中的每一个
我有点困惑cookie如何与Scrapy一起工作,以及您如何管理这些cookie。这基本上是我正在尝试做的简化版本:网站的运作方式:当您访问该网站时,您会获得一个sessioncookie。当您进行搜索时,网站会记住您搜索的内容,因此当您执行诸如转到下一页结果之类的操作时,它会知道它正在处理的搜索。我的脚本:我的蜘蛛有一个searchpage_url的起始urlparse()请求搜索页面,并将搜索表单响应传递给search_generator()search_generator()然后yield使用FormRequest的大量搜索请求和搜索表单响应。这些FormRequest中的每一个
在Scrapydocs,下面有一个例子来说明如何在Scrapy中使用经过身份验证的session:classLoginSpider(BaseSpider):name='example.com'start_urls=['http://www.example.com/users/login.php']defparse(self,response):return[FormRequest.from_response(response,formdata={'username':'john','password':'secret'},callback=self.after_login)]defaf
在Scrapydocs,下面有一个例子来说明如何在Scrapy中使用经过身份验证的session:classLoginSpider(BaseSpider):name='example.com'start_urls=['http://www.example.com/users/login.php']defparse(self,response):return[FormRequest.from_response(response,formdata={'username':'john','password':'secret'},callback=self.after_login)]defaf